PDF im Linux-Terminal stapelweise nach TXT konvertieren (+ pdftotext-GUI)
PDFs wandelt Ihr unter Linux am einfachsten mit dem Standard-Tool pdftotext ins TXT-Format. Leider beherrscht das Kommandozeilen-Tool keine Funktion, um mehrere Dateien auf einmal zu verarbeiten. Mit einem kleinen, einfachen Kniff geht es aber dennoch - der sogar jedem beliebigen CLI-Programm einen Batch-Modus verschafft. Und falls Ihr die Kommandozeile nicht so sehr mögt, nutzt einfach die kleine GUI, die wir für Euch gebastelt haben - PDFs wählen, Konverter starten, TXTs landen im selben Verzeichnis. Wozu das ganze? Mit Textdateien lässt sich beispielsweise besser verfahren, wenn Ihr größere Textmengen analysieren oder visualisieren wollt (Word Clouds, Wort-Statistiken, Indexe).
PDFtoText richtig nutzen
Hier zunächst mal der Standardaufruf von pdftotext: $ pdftotext hallo.txt
Sollen viele Dateien konvertiert werden, muss pdftotext über eine Schleife für jede einzelne erneut gestartet werden: $ for f in $(ls *.pdf); do pdftotext $f; done
Schritt für Schritt: Für jeden Dateinamen (gespeichert in der Variablen "f"), der sich in der mit "ls *.pdf" erstellten Liste befindet, führt die Schleife den Befehl "pdftotext $f" aus, wobei eben $f mit dem jeweiligen Dateinamen ersetzt wird. Das Praktische: Mit dieser Schleife spendiert Ihr jedem beliebigen Tool einen Batch-Modus. Alternativ könnt Ihr hier bei uns die kleine GUI namens B2T Batch Lite herunterladen - den gesamten Funktionsumfang seht Ihr bereits im Bild.